AI资讯新闻榜单内容搜索-Attention

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

「未来，99% 的 attention 将是大模型 attention，而不是人类 attention。」这是 AI 大牛 Andrej Karpathy 前段时间的一个预言。这里的「attention」可以理解为对内容的需求、处理和分析。也就是说，他预测未来绝大多数资料的处理工作将由大模型来完成，而不是人类。

来自主题: AI资讯

10443 点击 2025-04-07 17:09

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

Attention 还在卷自己。

来自主题: AI技术研报

9185 点击 2025-04-05 14:17

与真格戴雨森聊 Agent：各行业都会遭遇 “李世石时刻”，Attention is not all you need

晚点：过去将近 6 个月，AI 领域最重要的两件事，一是 OpenAI 去年 9 月 o1 发布，另一个是近期 DeepSeek 在发布 R1 后掀起全民狂潮。我们可以从这两个事儿开始聊。你怎么看 o1 和 R1 分别的意义？

来自主题: AI资讯

10302 点击 2025-03-29 00:33

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

YOLO 系列模型的结构创新一直围绕 CNN 展开，而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。

来自主题: AI技术研报

10212 点击 2025-02-22 14:14

突破数据瓶颈！交大研发电脑智能体，让 AI 替你熬夜做 PPT

想象这样一个场景：深夜 11 点，你已经忙碌了一天，正准备休息，却想起明天早上还得分享一篇经典论文《Attention Is All You Need》，需要准备幻灯片。这时，你突然想到了自己的 AI 助手 —— PC Agent。

来自主题: AI技术研报

10952 点击 2024-12-25 11:04

这个访谈回应了所有AI焦点问题，他是AI最重要论文的联合作者

随着scaling law撞墙新闻爆出，全球科技圈、资本市场关于大模型发展触及天花板的讨论愈演愈烈。那么，AI发展是否放缓？后续又将如何发展？商业模式如何突破？

来自主题: AI资讯

7227 点击 2024-11-27 09:05

无问芯穹提出混合稀疏注意力方案MoA，加速长文本生成，实现最高8倍吞吐率提升

随着大语言模型在长文本场景下的需求不断涌现，其核心的注意力机制（Attention Mechanism）也获得了非常多的关注。

来自主题: AI技术研报

5336 点击 2024-11-08 19:19

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

TL;DR：DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报

5407 点击 2024-10-24 11:33

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10828 点击 2024-10-19 14:29

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

4606 点击 2024-09-18 15:44